~\\

L'objectif de cette première étape est de récupérer les données génétiques d'un sous-arbre de l'arbre phylogénétique du NCBI.
Les données à récupérer sont dans un seul fichier au format {\em genbank}, ce fichier contient toutes les informations sur le taxon où on effectue la requête 
c'est à dire toutes données génétiques des espèces qui descendent de ce taxon. Le fichier contient donc autant d'entrées que d'espèces présentes dans le niveau taxonomique qu'on souhaite analyser.
\\

En résumé une entrée Genbank comporte: 
\begin{itemize}
  \item[\textbullet ]une partie commençant par le mot clé ORIGIN où on trouve la séquence d'ADN complète.
  \item[\textbullet ]une partie résumant les informations de l'espèce:
  \begin{itemize}
    \item[.]nom de l'espèce
    \item[.]un numéro d'\label{acc}accession unique pour la séquence dans la base de données du NCBI
    \item[.]...
  \end{itemize}
  \item[\textbullet ]Une seconde partie commençant par le mot FEATURES qui donne des informations biologiques importantes, en particulier l'annotation des régions de la séquence qui codent pour des protéines.
\end{itemize}
~\\

Chaque entrée est séparée par un double anti-slash. (Voir exemple en annexe \ref{ex_Entree_Genbank}: "Exemple une entrée genbank")
\\
 
Chaque taxon possède un identifiant unique, nommé {\em taxid}. C'est cette clé qu'on va utiliser pour interroger le NCBI afin de préciser quel ensemble d'espèces 
on souhaite récupérer. Pour se faire on utilise le module {\em EUtilities} du langage Perl offrant un ensemble de méthodes et d'objets permettant notamment d'interroger les bases de données du NCBI.
\\

Pour initialiser le module on précise: le type de requête (\textit{l1, fig5}), un email (\textit{l2}), la base de donnée où faire la requête (\textit{l3}),la requête (\textit{l4}) et le format genbank pour le format de sortie (\textit{l5}).
\lstset{
	language=Perl,
	morecomment=[l][keywordstyle]{@\#},
	keywordstyle=\bfseries\ttfamily\color[rgb]{0,0,1},
	identifierstyle=\ttfamily,
	commentstyle=\color[rgb]{0.133,0.545,0.133},
	stringstyle=\ttfamily\color[rgb]{0.627,0.126,0.941},
	showstringspaces=false,
	basicstyle=\small,
	numberstyle=\footnotesize,
	numbers=left,
	stepnumber=1,
	numbersep=8pt,
	tabsize=2,
	breaklines=true,
	prebreak = \raisebox{0ex}[0ex][0ex]{\ensuremath{\hookleftarrow}},
	breakatwhitespace=false,
	aboveskip={1.5\baselineskip},
  columns=fixed,
  upquote=true,
  extendedchars=true,
  frame=single,
% backgroundcolor=\color{lbcolor},
}
\begin{figure}[H]
  

\begin{lstlisting}[numbers=left][caption=test]
      my $objetEUtil = Bio::DB::EUtilities->new(-eutil      => 'esearch', 
                                                -email      => $mail, 
                                                -db         => 'nucleotide',
                                                -term       => $qwery
                                                -rettype    => 'gb') ;                                           

                               
\end{lstlisting}
\caption{\label{init} Code Perl pour l'initialisation du module EUtilities}
\end{figure}
~\\
\newpage
La requête peut alors se faire grâce à la routine {\em get\_Response} de l'objet (figure \ref{requete}).
\begin{figure}[H]
\begin{lstlisting}[numbers=left] 
      $objetEUtil->get_Response(-cb => $donnees);           
\end{lstlisting}
\caption{\label{requete} Code Perl simplifié pour la récupération données}
\end{figure}
~\\

Si {\color{red}{A}} est l'identifiant du taxon qu'on souhaite récupérer, la requête par défaut est celle représentée en figure \ref{requete2}.
\begin{figure}[H]
\begin{lstlisting}[numbers=left] 
txid<@\textcolor{red}{A}@>[Organism:exp] AND (mitochondria[Title] OR mitochondrion[Title] OR mitochondrial[Title]) AND \"complete genome\"[Title];                   
\end{lstlisting}
\caption{\label{requete2} Requête par défaut}
\end{figure}
~\\

Cette requête permet de récupérer tous les génomes complets 
({\tt complete\_genome [Title]}) des mitochondries ({\tt mitochondria[Title] OR mitochondrion[Title] OR mitochondrial[Title]}) du taxon d'identifiant {\color{red}{A}} ({\tt txid{\color{red}{A}}[Organism:exp]}). Pour rappel il est beaucoup plus intéressant de travailler sur les génomes mitochondriaux complets pour la classification taxonomique~\cite{complet}.\\


Une fois les données récupérées on peut alors reconstruire l'arbre phylogénétique du NCBI dont la racine est le taxon pour lequel on a effectué la requête. Toutes les données nous intéressant ne sont téléchargées qu'une seule fois. Dans notre cas, ce sont les données correspondantes aux Eucaryotes. On organisera ensuite ces données sous la forme d'une base de donnée locale dont l'arborescence correspond à la taxonomie. 
